#!/usr/bin/perl

use HTML::Entities;
use Encode;
use locale;

my ($contenu, $filesize);
my ($res, $body, $i);

if (@ARGV!=1) {
	die("Utilisation:perl filtre-balises.pl fichier.html");
}


open(FILE,"$ARGV[0]");



$filesize=(stat("$ARGV[0]"))[7];

read(FILE, $contenu, $filesize);	# lit tout le fichier

$res="";
#print $contenu;
$posStart=index $contenu,"<span class=\"art_chapeau\">";
$contenu=substr $contenu,$posStart+28;
$posStart=index $contenu,"</span>";
$contenu=substr $contenu,$posStart+7;
$posStart=index $contenu,"<div style=\"clear:both\">";
$contenu=substr $contenu,0,$posStart;
$res=$contenu;
# Enlever les scripts et les noscripts.
$res =~ s/(<script[^>]*>.*<\/script>)/. /igs;
$res =~ s/(<noscript[^>]*>.*<\/noscript>)/. /igs;
# Enlever les commentaires.
$res =~ s/(<!--.*?-->)/ /igs;
# Enlever toutes les balises qui restent.
$res =~ s/(<\/?.*?\/?>)/ /igs;
# Enlever les suites de blancs.
$res =~ s/([ |\t]+)/ /gs;


# Remplacer les scores (0-0).... par 0 0
$res =~ s/(\d+)-(\d+)/$1 à $2/gs;
$res=decode_entities($res); # HTML Decode 

# remplacer les noms d'équipes
open(EQUIPES,"equipes.lst");
while ($ligne=<EQUIPES>)
{
	if ($ligne=~/([^|]+)[|]/)
	{
	 $nc=$1;
		while ($ligne=~/(([^|]+)[|]?)/g)
		{
			$variante=$2;
			#print "variante en cours: $variante\n";
			$res=~ s/$variante/ $nc /g;
		}
	}
}


print $res;
close(FILE);
